메뉴

#디퓨전 모델

LL
r/LocalLLaMA 4일 전
IMP 8

PrismML, 로컬 브라우저 구동 텍스트-이미지 모델 발표

PrismML팀이 1비트와 3진법 가중치를 활용한 텍스트-이미지 디퓨전 트랜스포머인 Binary 및 Ternary Bonsai Image 4B를 공개했습니다. 기존 FLUX.2 Klein 4B 모델(약 16GB)과 비교해 약 3GB 수준으로 크기를 획기적으로 줄이면서도 WebGPU를 통해 브라우저 내에서 완벽하게 로컬 구동이 가능합니다. Apache-2.0 라이선스로 제공되어 누구나 제한 없이 사용하고 변형할 수 있는 오픈소스 모델이라는 점이 가장 큰 의의입니다.

오픈소스 이미지 생성 로컬 구동
LL
r/LocalLLaMA 15일 전
IMP 8

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

추론 속도 최적화 디퓨전 모델 Qwen3
HN
Hacker News 24일 전
IMP 8

디퓨전 모델의 적분 학습과 플로우 맵

디퓨전 모델의 샘플링 속도를 획기적으로 높이기 위해 중간의 반복적인 단계를 건너뛰고 적분값을 직접 예측하는 '플로우 맵(Flow Map)' 기술을 소개하는 글입니다. 플로우 맵은 단순히 샘플링 속도만 개선하는 것을 넘어 보상 기반 학습의 효율성과 샘플링 제어 능력을 향상시키는 등 다양한 장점을 제공합니다. 최근 AI 연구 분야에서 매우 주목받고 있으며, 기존 디퓨전 모델의 한계를 극복할 대안으로 떠오르고 있습니다.

디퓨전 모델 플로우 맵 딥러닝
HN
Hacker News 47일 전
IMP 9

내향적 디퓨전 언어 모델(I-DLM)

디퓨전 언어 모델(DLM)의 한계를 극복하고 자기회귀(AR) 모델과 동등한 성능을 달성한 내향적 디퓨전 언어 모델(I-DLM)을 소개합니다. 이 모델은 기존 DLM이 가진 '내향적 일관성' 부족 문제를 해결하여, 절반 크기의 파라미터로도 대형 모델들을 능가하는 추론 및 코딩 성능을 보여줍니다. 또한 동시 처리 시 높은 처리량을 제공하며 기존 AR 서빙 인프라와 완벽하게 호환된다는 점에서 실무적으로 매우 중요한 의미를 갖습니다.

디퓨전 모델 언어 모델 자기회귀 모델
LL
r/LocalLLaMA 53일 전
IMP 8

초고속 스펙큘레이터 디코딩을 위한 블록 디퓨전 기술

z-lab 연구팀이 텍스트 생성 속도를 극적으로 높이는 새로운 접근법인 'DFlash'를 공개했습니다. 이 기술은 블록 디퓨전(Block Diffusion)을 활용해 기존의 한계를 벗어난 스펙큘레이터 디코딩(Speculative Decoding)을 구현하여 대형 언어 모델의 실제 추론 처리량을 크게 향상시킵니다. 프로젝트 페이지, 깃허브(GitHub) 오픈소스 코드, 허깅페이스(Hugging Face) 모델 데이터셋이 함께 공개되어 실무자들이 즉시 테스트하고 적용해볼 수 있습니다.

스펙큘레이터 디코딩 디퓨전 모델 추론 가속화